资源

全文

数据集的质量不仅仅是通过其大小来衡量的。影响数据集有效性的因素包括多样性、完整性、外观、对象出现分布和其他因素。

大量注释数据的必要性是计算机视觉任务的瓶颈。处理这个问题的一种方法是使用廉价的合成生成的训练图像。然而，这种方法提出了一个重要问题；如何使用合成数据和真实数据来优化模型的训练。

合成数据生成可以通过两种主要方式进行：

文献中的发现可以用一些经验法则得出结论；数据越多越好。从测试环境中获取的样本对模型的性能贡献更大。一旦超过特定比例，增强真实图像就会饱和。真实感传感器失真模型和环境分布模型对最终性能的影响大于样本的照片真实感。

为了对拥有昂贵的真实数据的要求进行全面研究，我们使用了一组真实和合成数据集。选择这些数据集是为了为基于相机的对象检测提供全面的示例集。（都是自动驾驶领域的，对汽车和人进行目标检测）

合成和真实数据比率。用于训练集的合成数据和真实数据的各种比率。

总的趋势是，通过减少真实数据点的数量，我们在精度和召回方面都大幅牺牲了性能。我们还观察到，在所有数据集上，删除前 90% 的数据的相对效果小于删除后 5% 的数据的效果。

评估数据集之间的相似性。

将一个数据集与其他数据集进行比较。在本节中，所有数据集都以完整的训练集大小进行训练，以在自己的测试集上获得最佳结果。然后，使用他们训练的模型来评估他们在其他数据集上的性能。

所有的合成数据集都存在特异性问题，这导致模型无法进行适当的泛化。它们在自己的测试集上表现非常好，但在任何其他测试集上它们的性能都会受到影响。

与纯合成训练相比，通过添加少量真实数据来观察性能的提高，这一假设得到了证实。这意味着在数据注释中可以实现相当大的成本节约。

我们采取了迁移学习的方法。首先在合成数据集上训练模型，然后在每个真实数据集上进行微调。

将所有的合成数据集结合起来训练模型。稍后，该模型在 1500 张真实图像上进行了微调。

将所有合成数据集组合起来进行训练比单独使用它们提供更好的结果。

这可归因于组合训练数据的完整性。由于每个数据集都是从独立的来源生成的，因此它们的结合提供了一个更完整的数据集。

我们评估了组合多个独立合成数据集的性能。然而，需要对使用单一来源实现完整数据集的方法进行更多研究，同时解决与数据集创建相关的所有剩余挑战。

我们希望这篇论文能深入了解真实数据和合成数据之间的主要动力学，并指导未来的研究，以产生使用少量真实数据训练神经网络的成本效益高的程序方法。